2 research outputs found
Pemodelan Pohon Keputusan Menggunakan Algoritma Xgboost Dan Smote Xgboost Dengan Preprocesing Dalam Memprediksi Mahasiswa Lulus Terlambat (Studi Pada Data Lulusan Mahasiswa Unisla Tahun Ajaran 2016-2020)
UNISLA adalah perguruan tinggi dengan tingkat akreditasi yang
belum maksimal. Dalam penilaian akreditasi mahasiswa memiliki
poin 13,16% yang ditinjau dari berbagai aspek, salah satunya adanya
mahasiswa lulus terlambat. Untuk mengetahui aspek yang
mempengaruhi mahasiswa lulus terlambat dilakukan prediksi
menggunakan data lulusan mahasiswa periode 2016-2020. Atribut
yang digunakan diantaranya Prodi, Jenis Kelamin, Usia, Asal
Sekolah, dan IP Semester 1-4 serta Ketepatan Lulus sebagai label.
Pada data yang digunakan terdapat masalah dirty data yang
ditangani pada preprocessing (sebelum split data) dan imbalance
data ditangani dengan membangun dua model berbeda. Model
pertama (XGBoost) menggunakan pendekatan algoritma dan model
kedua (SMOTE XGBoost) dengan pendekatan algoritma dan tingkat
data. Hasil menunjukan model SMOTE XGBoost mampu melakukan
prediksi dengan baik pada imbalance data dan dirty data ditinjau
dari ukuran evaluasi yang lebih tinggi, yaitu nilai precision kelas
Tepat (98,12%) dan Telat (97,57%), specificity (98,16%), f1 score
kelas Tepat (98,28%) dan Telat (97,37%), dan AUC (98,29%).
Sedangkan, model XGBoost memiliki nilai recall lebih besar
(99,08%). Berdasarkan model SMOTE XGBoost didapatkan atribut
yang memiliki kontribusi lebih besar adalah IP Semester 1 (721),
Semester 2 (716), Semester 4 (645), dan Semester 3 (615)
Pemodelan Pohon Keputusan Menggunakan Algoritma Xgboost Dan Smote Xgboost Dengan Preprocessing Dalam Memprediksi Mahasiswa
UNISLA adalah perguruan tinggi dengan tingkat akreditasi yang
belum maksimal. Dalam penilaian akreditasi mahasiswa memiliki
poin 13,16% yang ditinjau dari berbagai aspek, salah satunya adanya
mahasiswa lulus terlambat. Untuk mengetahui aspek yang
mempengaruhi mahasiswa lulus terlambat dilakukan prediksi
menggunakan data lulusan mahasiswa periode 2016-2020. Atribut
yang digunakan diantaranya Prodi, Jenis Kelamin, Usia, Asal
Sekolah, dan IP Semester 1-4 serta Ketepatan Lulus sebagai label.
Pada data yang digunakan terdapat masalah dirty data yang
ditangani pada preprocessing (sebelum split data) dan imbalance
data ditangani dengan membangun dua model berbeda. Model
pertama (XGBoost) menggunakan pendekatan algoritma dan model
kedua (SMOTE XGBoost) dengan pendekatan algoritma dan tingkat
data. Hasil menunjukan model SMOTE XGBoost mampu melakukan
prediksi dengan baik pada imbalance data dan dirty data ditinjau
dari ukuran evaluasi yang lebih tinggi, yaitu nilai precision kelas
Tepat (98,12%) dan Telat (97,57%), specificity (98,16%), f1 score
kelas Tepat (98,28%) dan Telat (97,37%), dan AUC (98,29%).
Sedangkan, model XGBoost memiliki nilai recall lebih besar
(99,08%). Berdasarkan model SMOTE XGBoost didapatkan atribut
yang memiliki kontribusi lebih besar adalah IP Semester 1 (721),
Semester 2 (716), Semester 4 (645), dan Semester 3 (61